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HO 偶合 今 祖 法 的 提 出 


(中 国 科学 院 昆明 动物 研究 所 650109) LX 2 分 人 3 
 ， 搞 桂 ”以 恢 等 真 核 生 物 的 5.8 S CRNA 为 材料 进行 研究 。 发 现在 用 今 祖 法 消除 了 进 此 速度 之 蓉 的 影响 
所 得 到 的 差异 矩阵 d” 中 , 省 组 理应 锌 此 相等 的 数 信 会 因 核 普 酸 眉 合 的 影响 而 成 为 不 等 值 的 。 取 各 组 中 各 自 的 
的 最 大 习作 为 受 偶合 的 影响 最 小 者 , 以 之 对 今 祖 法 所 得 到 的 分 梳 型 式 进行 校正 ， 即 可 得 到 更 为 正确 的 结果 。 


在 此 基础 上 提出 了 对 差异 矩阵 df 进行 最 大 亿 成 了 以 代 善 原 法 中 的 平均 值 成 案 的 全 情 合 今 祖 法 。 新 法 在 结果 
HERE, BEEN MELB PRR. 


关键 词 ， 分 子 进化 树 的 构建 PER RMA A FN wee sone 


分 Hd a. Petter” 


不 加 权 对 群 算术 平均 三 案 CUPGMAR:, MERO 本 为 构建 克 相 图 的 方法 ， 但 和 
Nei(1975) 指出 可 用 以 利用 分 子 序 列 资 料 构建 进化 树 以 来 ， 马 广 泛 地 得 到 了 应 用 。 但 后 来 
发 现 如 果 不 同 进化 枝 上 的 进化 速度 明显 不 等 ， 用 此 法 就 可 能 得 到 错误 的 结果 (Tateno, 
1978; Blanken 等 ，1982) , Klotz 与 Blanken (19813 #1W.-H. Li (1981) 对 此 法 作 
了 巨大 的 改进 ， 提 出 了 今 祖 法 以 避免 因 进 化 速度 之 差 所 造成 的 错误 。 其 基本 原理 在 于 利 
Sil, ASRS Se d 转换 成 具有 相亲 的 分 枝 型 式 〈topology) 的 等 
进化 树 的 差异 气 阵 4"， 之 后 再 依 后 者 进行 成 聚 〈 李 靖 炎 ，1988 a) 。 

在 实际 应 用 今 祖 法 时 也 发 现 一 些 问题 。 理 论 上 ， 用 任何 物种 的 同 源 大 分 子 作 参 证 ， 
只 要 此 物种 与 建树 物种 不 属于 同一 进化 枝 ， 就 都 应 得 到 同一 的 结果 。 但 实际 上 用 不 同 的 
物种 作 参 证 ， 往 往 会 得 到 彼此 大 不 相同 的 结果 。 此 外 , RE 既然 代表 等 速 进化 树 , 其 中 
就 理应 存在 一 系列 的 等 值 数 值 群 , 但 实际 上 根本 看 不 到 。 作 者 (1988 a ) 的 分 析 表 明 , 上 
述 两 种 矛盾 都 是 由 于 同 源 大 分 子 冶 的 偶合 造成 的 。 理 论 上 同 源 大 分 子 间 的 差异 程度 应 反 
忠 物 种 进化 上 的 分 此 程度， 但 核酸 分 子 仅 由 4 种 核 背 酸 构成 ， 在 进化 中 会 不 断 地 发 生 核 
普 酸 的 偶合 《平行 替代 与 偶合 替代 ), 这 些 偶合 会 不 等 地 降低 同 源 类 分 子 间 的 差异 。 即 使 
进化 速度 完全 一 致 ， 理 应 相等 的 差异 值 也 会 因此 而 变 成 不 等 。 由 此 即 可 说 明 为 何不 同 的 
参 证 会 导致 不 同 的 结果 。 作 者 (1988b) 曾 推 导出 一 个 完整 的 公式 , 以 求 消除 建树 物种 彼此 
亲 和 参 证 物种 与 建树 物种 间 同 源 大 分 子 的 偶合 所 造成 的 影响 。 但 因 当时 无 法 估算 建树 物 
种 彼此 间 的 偶合 值 ， 被 追 对 此 公式 作 了 简化 ， 以 致 只 能 消除 不 同 参 证 所 造成 的 误差 。 

本 工作 证 明 这 一 简化 公式 正 是 多 物种 联合 参 证 的 今 祖 法 的 理论 基础 。 在 力图 削减 建 
树 物 种 同 源 分 子 间 的 偶合 影响 的 基础 上 ， 作 者 对 今 祖 法 作 了 改进 ， 提 出 了 前 偶合 今 祖 
法 。 其 理论 基础 正 是 以 前 提出 的 未 经 简化 的 完整 公式 。 





Bee 动 物 HOR EEA 
材 OR 
#4 BLA ARETE  Crypthecodinium cohnii 与 Prorocentrum micans, Aia T E 


Vatrimor pha necatrix, {#BwGiardia lamblia, 47m Tetrahymena pyriformis, 
BEE: Saccharomyces cerevisiae, #tkih Crithidia fasciculata 5 KR Oriza sativa 
的 5,8S rRNA, 分 别 简称 为 Cry、Pr、Va、GiwTe、Sa、Cri 与 Or。 用 为 参 证 的 是 大 
BITR, PYAR Methanobacterium thermoautotro phicum Methanococcus vani- 
elie, Mth Halococeus morrhuae 与 Halobacterium halobium 和 依赖 硫 的 哮 高 温 
A Thermo proteus tenax HDesu lfurococcus mobilisfg23S rRNA 分 子 中 的 5.8S 
rRNAR, #REc, Mb, Mc, He, Hb, Tp4Dc, 

同 源 大 分 子 闻 的 匹配 往往 有 很 大 的 主观 性 ， 特别 是 变异 极 大 的 眉 落 。 5.85 rRNA 
5 端的 头 几 个 核 董 上 酸 与 后 1/3 段 即 是 如 此 。 为 尽力 减少 主观 性 ， 我 们 只 利用 保守 性 较 强 


的 2/3 段 来 进行 匹配 〈 玫 1) 和 计算 差异 值 ( 表 2》。 


En 
Tp 
Da 
Ho 
Ho 
Hb 
Me 


Pr 
Cry 


Cri 
or 
‘Te 
‘Gi 

Va 


= 1 


5.88 rRNA 的 保守 部 分 的 匹配 
Tab. 1 The matching of the conservative part of 5.8S rRNAS 


WAAGCUGACA 
CAAGCCGCC- 
GACGCCGCC- 
UAUGCCAAC~ 
UGUGCCACC- 
UAUGCCGUC- 
UACCCUACC~ 


AACUUUCAG- 
AACUUUCAG- 
AACUUUCAA- 
AACGUGUCG- 
GACUCUCGG- 
AACUULUCAA- 
AACGCCCCGC 
PPPACCCACA 


CEGUGGAUGC 
CGGUGGAUGG 


CGGUGGAUGG C 


UGGUGAALUAG 
UGGUGGAUAG 
UGGGGAAUGG 
UGGGGAAUGG 


CGACGGAUGU 
CAGUUGAUUC 
CAACGGAUCU 
CGAUGGAUGA 
CAACGGAUAU 
CGGUGGAUAU 
CGGCGGAUGC 
CAUGGGAUCA 


-COUGGCAGUC 


CUCGGCUCGG 
UCGGCUCGG 
CUCGGCUCGA 
CUCGGCUCGG 
CUUGGCUUGA 
CUUGGCULGA 


CUCGGCUCGA 
CUUGG-UUCA 
CUUGG-UUCU 
CUUGGCUUCC 
CUCGGCU-cU 
CULGGUUCCC 
CUCGGC-CCG 
AUAGGAUACC 


AGAG-CGALE 
G-CGCCGAGG 
G- CGCCGAGG 
GU-GCCGAUG 
A\UJ-GCCGACG 
GUCGCUGAUG 
AACGCCGAUG 


- ACAACGAUG 
GACCUCGAUG 
CGCAUCGAUG 
UAUCUCGUUG 
CGCAUCGAUG 
GUGA-CGAUG 
GGCGGCGACG 
~AUAACGAUG 
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AAGGACGUGG 
AAGGGCGUGG 
AAGGCCGUGG 


AAGGACGUGC" 


AAGGACGUGC 
AAGGCCGUGG 
AAGGACGUGG 


AAGGGCGCAG 
AAGGGCGCUG 
AAGAACGCAG 
AAGAACGCAG 
AAGAACGUAG 
AAGAACGCAG 
AAGAGCGCGG 
AAGGUCGUAA 


UAAUCUGCGA 
CAAGCUGCGA 
CAAGCUGCGA 
CAAGCUGCGA 
CA&AGCUGCGA 
CAAGCUGCGA 
UAAGCUGCGA 


CGAAAUGUGA 
CGAAA-GUGA 
CGAAAUGCE SA 
UAAAGUGCGA 
CGAAAUGCGA 
CGAAAUGCGA 
CGGAGCGCGA 
UAGAAUACGA 


UAAGCGU~-GG 
UAAGCCCGGG 


VUAAGCCCGGG 
UAAGCUCAGG 


UAAGCCUUAG 
UAAGCCCAGG 
UAAGCCUAGG 


UAAGCAAUGU 
AUGGCA-UGU 
UACGUAAUGU 
UAAGUGGUAU 
VACCUGGUGU 
UACGUAAUGC 
GACGCGGUGC 


~AAGUA-UAU_ 


UAAUGAUAUG 
GUAGCCGCAA 
GUAGGCGCAG 
GGAGCCGCAC 
GGAGCCGCAU 
GGAGGAGCAU 
GGAGGCGCAU 


GAA-UUGCAG 
GAA-~UGCAG 
GAA~UUGCAG 
GAA~UUGCAG 
GAA-UUGCAG 
GAA-UUGCAG 
GGACCCGCCC 
-UA-UU->=- 


ACA-CUGUUA 
GCGGGCGUU- 
GCAGCCGUU- 
GGAGGCGAA- 
GCAUGCUAA- 
GCAUCCUUG- 
ACAGCCUUU- 


AAUUCCG-L- 
GCAUCCG-G- 
AAUUCCG-G- 


AAU-CAU-U-. 


AAUCCCG-U- 
AA~-CCG-C- 
GC-CCCG- A- 

“YACE--U- 


UAACC--GGC G- 
G-AUUCCCGA 


GAACC--CGG 
GAACC~-CGG 
GAACC--UGA 
GAACU--CAG 
GAACC--UGG 


GAACC--UAG G- 


GAACCAAUAG 
GAAUUGAGAG 
GAAUCAUCGA 
CAAUUACCGA 
GAACCAUCGA 
GAGUCAACAG 
GAAGCACCGA 
GA-UUAAU-- 


AUCUCCUA 


G~AUCGCCGA 
G~AUUUCCGA 
G-AUCUCCUA 
G-AUUGCCGA 
AUUUCCGA 


GGACUU--GA 
CUUCUU-~GA 
AU-CUUU-Gs. 
AU-CUUU-GA 
GU-CUUU-GA 
AU-CUUU-GA 
CC-CUC--GA 
AUA-UU 


AUG 


AUG 
AUG 
AUG 
AUG 
AUG . 
AUG 


ACG 
AUG 
ACG 
ACG 
ACG 
AAG 
ACG 
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Tab.2 Difference matrix d of 5.88 rRNAs 

















d Sa Or Te Cri Pr Cry Va Gi 

Ec $8.41 53. 98 55.86 51.79 53.1 58.41 61.165 56.64 
Tp 54.95 48.65 51.35 53.15 43-24 52.256 61.76 40.18 
De 53.15 45.95 49.55 61.35 42.34 50.46 61.76 41.965 
Hb 60.86 54.05 53.15 55.86 50.45 57. 56 62.745 48.21 
He 54.965 49.56 50. 45 55. 86 45.95 $4.05 61.76 45.965 
Mb 64.95 53.15 54.05 54.95 46.85 $1.35 62.745 50.00 


Me 52.25 48.665 50.46 48. 66 40.64 49.65 58, 82 51.79 


Sa 一 15.89 19.63 28.97 25.00 23.33 49.00 43.12 
Or 一 28. 0d 30.84 26.35 $0.81 51.00 38.53 
Te 一 33.02 26.85 $3.33 50.00 43.62 
Cri 一 26.11 43.62 47.00 44096 
Fr 一 29.01 47 296 42.20 
Cry 一 65.56 45.87 
Va 一 65.35 
Gi 一 





方法 与 结果 
一 、UPGMA 法 ”对 8 种 真 核 生 物 的 5.8S rRNA 的 差异 值 d 作 简 单 成 聚 ， 得 到 图 
1， 其 中 显然 含有 错误 , PUER a nr Ya Pr Cri Cry Gi Va sa Or Ta Br Cry Cri Gi Va 


WE RGR ABE 
图 1 一 7 依 不 同方 法 所 得 到 
的 分 枝 型 式 
Figs. 1—7 Topologies obtained 


with various methods l 
Va Sa Or Te Cri Cry Pr Ya Gf 


ls UPGM Brit Za Or Te Cri cry Pr GI 
2m, RAMA BEC A Riz 
新 得 
Soa, UE PRR Mie eK 
证 所 择 
se Gli, WH EH BT pie KR 4 


G26 Sa Or crt Pe Cry Va Gi Se Or Te Cri Cry Pe Ve Gi 


Be atik, E P aT A Mb RR 
球菌 De HAREM, 以 了 种 原 
HERRERA LHL 
6。 今 福 法 ， 以 此 杆菌 Hb 或 站 球菌 He 
HKG, RMB SMR, o e 
Zit WEc, Tp Hb, Mb &Me% $ Sa Or Te Cri Cry Pr Va Gt 
证 POPS HHA UT RK 
LRT AP MILT 6 HRS 
Hix, HFAA 
TMMBS SME, MERAH KK 5 
破 球菌 De 为 求证 时 所 得 


ri -a We a e 
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D SHR “利用 diais = dieis- riaj- rij 的 ARTEA RER d 转换 为 代表 等 
EHER d. IRAE ABAD TS, j 为 参 证 物种 的 同 源 分 子 ，rij 代 
RU {HSIN i 的 校正 值 ， 其 基本 形式 即 dij。 对 诸 rij 可 共同 加 减 任 一 个 值 ， 而 不 影 
响 最 后 的 结果 。 对 整个 矩阵 也 是 如 此 。 

理论 上 用 不 同 的 细菌 同 源 分 子 作 参 证 应 得 到 同一 的 结果 ;但 分 别 以 7 种 细菌 的 5.8 S 
rRNA 区 作 参 证 ， 却 得 到 5 种 不 同 的 结果 (图 2 一 6 )。 以 两 种 涡 巍 毛虫 应 构成 一 个 单 
系 类 群 ， 而 非 并 系 类 群 来 判断 ， 只 有 图 6 可 能 正确 。 但 即使 以 7 个 种 作 联 合 参 证 CE 
3 ), 也 只 能 得 到 图 :5 。 可见 今 祖 法 即使 作 联合 参 证 也 并 不 一 定 能 得 到 正确 的 结果 。 

家 5 以 Ec Tp, De, Hb, Ho, Mb, Me 7 种 原核 生物 联合 


| SEAR 1 AIHER 
_ Tab, 3 Difference matrix d’ (reference, Ec; p,De,Hb, Mb & Mc) 





w Or Te ‘Cri Fr Cry Va Gi 








Sa 15089 18,0754 26.4514 29,5014 30.61 38.0324 46.8714 

Or 一 31.491 33.327 36.357 41.9956 465.038 46.287 

--Te me. 339624 3d.8024 33.961 42.4834 49.7224 

Cri 一 43,0984 43.187 38.5194 50.1884 

Pr J me 36.597 46.4994 54.4584 

Cry es s 本 一 46.778 50.807 

Va oo oo = 62.1394 
Gi 


d’iaig =diaip -ria -rip + 14.0084 . 7 
Sa=9.507 ` = rOr=4,6014 rTe= 6.056 .  rCri=7.02 
rPr=0 ~ . ~ ¢Cry=7.3214 c¥a= 15.469 rGi= 1.76 


.三 、 受 偶合 影响 最 小 的 d 值 及 其 利用 既然 矩阵 d 在 理论 上 代表 等 速 进化 树 ， 
其 中 理应 存在 一 系列 的 等 值 数值 群 。 例 如 在 据 以 得 到 图 5 的 矩阵 df 〈 表 3 ) 中 ,d'SaGi、 
d'OrGi, d'TeGi, d'CriGi, d'PrGi, d'CryGi, d'VaGi 等 就 应 是 等 值 的 。 但 实际 上 并 
不 如 此 。 这 这 可 以 认为 是 由 于 不 同 程度 的 偶合 使 它们 不 等 地 减 小 所 致 ， i a lil 
以 视 为 受 偶合 影响 最 小 的 一 个 。 
各 理论 等 值 数值 群 中 的 最 大 值 不 仅 可 用 以 衡量 各 群 中 其 他 数 信 受 偶合 影响 的 相对 大 
小 ， 还 可 借以 判断 哪 种 分 枝 型 式 更 为 正确 。 以 图 5 和 图 6 a 在 这 两 种 进化 树 中 ， 如 
无 偶合 的 干扰 都 应 存在 如 下 的 等 式 关系 ， d'SaTe = d'OrTe = 
d'SaCri = = d'OrCri = d'TeCri = B, 
d'SaPr = d'OrPr = d'TePr =d'CriPr = C, 
d'SaCry = d'OrCry = d'TeCry = d'CriCry = D,. . 
d'SaVa = d'OrVa = d'TeVa= d'CriVa = d'PrVa = d'CryVa = 
d'SaGi = d'OrGi = d'TeGi = d'CriGi = d'PrGi = d'CryGi=d' “me =F, 
如 图 5 正确 , 则 A 二 B<ZC<D<E<F, 而 且 d'PrCry $F Ds WAGER, M A<B<C 
=D<E<F, 而且 d'PrCry 小 于 D。 虽 则 由 于 偶合 的 于 扰 , 上 述 的 等 式 关系 实际 上 并 不 


4 其 EMR: MBAS He: Ode 38! 


存在 ， 了 但 上 述 的 不 等 式 关 系 却 应 能 通过 各 理论 等 值 数值 群 中 的 最 大 值 而 表现 出 来 。 从 表 
3 中 各 个 群 的 最 大 值 d'SaTe、d'ITeCri、d'CriPr、dICriCry、diCryVa、dVaGi 和 dh Pr 
Cry 的 具体 数值 看 ， 显 然 正确 的 是 图 6 ， 而 非 图 5 。 用 这 种 方法 已 经 证 明了 图 1 一 4 及 
其 他 一 些 进化 树 全 都 是 错误 的 。 

四 、 削 偶合 今 粗 法 上述 的 铺 果 提示 我 们 ， 可 以 对 和 抢 阵 d 中 的 数值 不 是 依 最 小 
的 平均 值 ， 而 是 依 最 小 的 最 大 值 来 进行 成 聚 。 这 就 是 前 偶合 今 祖 法 。 

PAR 3 中 的 矩阵 d' 为 例 。 按 原 今 祖 法 只 能 得 到 图 5， 而 按照 前 侦 合 今 祖 法 则 可 
得 到 图 6 。 关 键 在 于 依 原 法 取 平 均值 ，d' (SaOrTeCri》 Pr=35.9398 小 于 d'PrCry 

(C36,.597)， 因 此 只 能 得 到 图 5; 而 按 新 法 取 最 大 臣 ，d' (SaOrTeCri) Pr= 43.0984, 
显著 地 大 于 d'PrCry， 所 得 的 因此 是 图 6 。 

以 7 物种 分 别 参 证 ， 根据 所 得 的 矩阵 d' 按 原 法 成 聚 时 ， 如 前 所 述 全 得 到 5 种 不 同 
的 分 枝 型 式 ， 然 而 如 按 新 法 进行 成 聚 ， 无 论 是 以 Ec、Mc, Mb, Hb 或 Tp 作为 参 证 ， 都 会 
得 到 图 6 ， 而 以 Hc 或 De 为 参 证 则 会 得 到 图 7 。 在 图 7 中 两 种 润 蒜 毛虫 也 是 构成 单 系 ， 
但 其 中 娃 毛 里 与 锥 体 虫 的 关系 是 难以 置信 的 。 

以 数 个 物种 作 联 合 参 证 并 依 前 偶合 今 祖 法 建树 ， 结 果 更 为 明显 。 以 7 物种 中 的 任意 
5 种 联合 参 证 ， 在 全 部 21 种 可 能 的 组 合 中 ， 只 有 一 种 会 得 到 图 7 ， 其 余 所 得 的 全 是 图 
6 。 以 任意 6 种 或 全 部 7 种 联合 参 证 ， 则 都 只 会 得 到 图 6 。 

削 悍 合 今 祖 法 现 已 可 在 微机 上 自动 进行 。 





讨 论 
一 、 今 祖 法 的 意义 及 其 改进 UPGMA 法 迄今 是 构建 分 子 进 化 树 的 主要 方法 之 一 ， 


也 有 两 个 因素 往往 妨碍 它 取 得 正确 的 缮 果 : 1. 进 化 速度 的 差异 ，2. 同 源 大 分 子 间 的 侦 
合 。 今 祖 法 的 意义 即 在 于 避免 了 前 一 因素 的 干扰 ， 但 由 于 不 同 参 证 物种 与 各 建树 物种 同 


#4 以 大 肠 杆 苦 Ec 为 参 证 从 表 1 担 到 的 闭 异 矩阵 4 


Tab.4 Difference matrix d’ (reference, Ec) 














d’ Sa Or Te Cri Pr Cry Va Gi 
Sa 一 15.89 17.75 31.16 25.88 28.9 41.815 40.46 
Or 一 30.59 37.46 32.16 39.81 48.245 40.3 
Te 一 37676 30.28 31.45 46.366 A3.41 
Cri 一 43.64 45.71 46.436 48.91 
Pr 一 30.79 46.086 44.865 
Cty 一 48.375 43021 
Va 一 59.935 
Gi 一 

d“ieib =d’iaip -riaEc-ripEc+& 81 

rSaEc = 6.62 rOrEc = 2.19 rTleEc = 4.07 rCriEc= 0 

tPrEc = 1.31 rCryEc=6.62 rVaEc=9.375 rGiEc= 4.85 
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Tab. 5 Difference matrix DC’ (reference, Ec) 








DC’ Or Te Cri Pr Cry Va Gi 
Sa 15.89 18.0754 26.4514 29.6014 30.53 38.0324 46.8714 
Or 一 31.491 33.227 26.357 41.9956 45.038 46.287 
Te 一 33.9524 34.8024 33.961 42.4834 49.7224 
Cri 一 43.0984 43.187 38.5194 80.1884 
Pr 一 96.597 46.4994 684.4584 
Cry 一 46.778 50.807 
Va 一 62.1394 
Gi 一 


DC’ iaip =d iaip -CO’%iaEc-CO’igEc+ 13.8624 
d’iaip are shown in table 2. 

| CO’SaEc = 7.219 CO/OrEc = 6.6434 CO’ TeEc = 6.318 
CO’ CriEe = 11.352 CO’PrEc = 8.022 CO/’CryEc = 5.0334 
CO‘ VaEc = 10.426 CO’GiEc = 1.232 





源 大 分 子 间 有 程度 各 不 相同 的 偶合 , 结果 就 造成 了 不 同 的 矩阵 d 和 不 同 的 分 枝 型 式 。 作 
者 (1988 b ) 曾 通过 一 系列 的 数学 推导 得 到 了 “DO'iais=d'iais + CO'gi,-CO'igj-CO'N1,)” 
的 公式 ，DO'isis 代 表 已 消除 了 各 建树 物种 同 源 大 分 子 间 的 偶合 影响 CO'iais 和 参 证 物种 
与 建树 物种 分 子 间 的 这 种 影响 CO'ij 的 由 isis 值 。 但 因 当 时 尚未 找到 合算 CO'iais 值 的 方 
法 ， 被 迫 对 此 公式 作 了 明知 不 妥 的 简化 ， 即 假定 诸 建树 物种 的 同 源 天 分 子 冯 的 偶合 程度 
都 大 致 相似， 因而 可 也 忽略 ， 从 而 提出 了 如 下 的 简化 公式 : DCtigi, = dinais 一 CO'iaj 一 
CO'izj。 这 一 简化 公式 实际 上 正 是 多 物种 联合 参 证 的 今 祖 法 的 理论 基础 。 比较 表 5 AR 
3 即 可 清楚 地 看 到 这 一 点 。 此 法 的 缺陷 看 来 也 正在 于 上 述 的 简化 。 

通过 本 文 所 述 的 工作 ， 现 已 能 对 大 部 分 CO'ivis 的 大 小 进行 合算， 从 而 使 DD'iait 的 
公式 得 到 应 用 。 应 用 结果 证 明 实 际 也 就 是 联合 参 证 的 前 偶合 今 祖 法 《d'igis 加 上 COriais 
就 成 了 最 大 值 o 

二 、 肖 偶合 今 想 法 的 优越 性 。 1. 今 祖 法 会 因 参 证 物种 的 不 同 而 得 到 众多 各 不 相同 
的 结果 。 然 而 利用 同样 一 些 单个 的 参 证 物种 ， 草 偶合 今 祖 法 在 绝 大 多 数 情况 下 却 可 得 到 
一 臻 并且 正 确 的 结果 。 

2. 利 用 前 惕 合 今 祖 法 ， 作者 得 到 了 国际 上 启 邻 利用 低 等 真 核 生 物 的 5.83 rRNA 建 
立 和 分 子 进 化 树 所 得 到 的 最 好 的 结果 。5.8S rRNA 是 一 种 仅 含 150 多 个 核 昔 酸 的 小 分 子 
rRNA, 所 含 信 息 量 仅 及 大 分 子 rRNA 所 含 的 儿 十 分 之 一 。 但 我 们 用 前 偶合 邻 祖 法 在 5.85S 
rRNA 上 所 得 到 的 结果 ， 与 Sogin 等 (1989) , Perasso® (1989) Al Lenaers (1989) 
在 大 分 子 rRNA 上 记得 到 的 结果 基本 上 一 致 。 这 样 好 的 结果 是 Maroteaux 等 (1985) 、 
Walker (1985) 过 去 在 5.8S rRNA 上 都 未 曾 得 到 过 的 。 

我 们 的 结果 与 别人 用 大 分 子 rRNA 为 材料 所 得 结果 的 唯一 不 同 是 在 纤毛 虫 与 涡 纱 毛 
虫 的 亲缘 关系 问题 上 。 从 5.8S rRNA 上 确实 看 不 出 这 两 者 有 什么 紧密 关系 。 用 其 他 建 
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树 方 法 也 看 不 出 。 伍 应 指出 ， 认 为 这 两 者 有 紧密 的 亲缘 关系 的 看 法 迄今 还 缺乏 细胞 生物 
学 和 其 他 分 子 生 物 学 的 旁证 。 根 据 本 文 的 结果 ， 涡 鞭毛 虫 类 是 介 于 具有 70S 型 核糖 体 的 
微 胞 子 虫 、 杭 第 虫 与 具有 80 S 型 核糖 栖 的 纤毛 虫 、 锥 体 虫 之 间 。 这 与 涡 鞭 毛虫 具有 75 S 
的 核糖 栖 的 报道 (Steele, 1980) HWS. 

作者 曾 以 本 文中 所 用 的 8 种 真 核 生 物 的 5.8S rRNA 作为 参 证 ， 用 前 偶合 今 祖 法 研 
究 本 文中 所 用 的 7 种 原核 生物 的 进化 关系 。 所 得 结果 与 当前 国际 上 公认 的 看 法 是 一 致 
的 ， 即 原核 生物 首先 区 分 为 原 细菌 与 真 细菌 两 大 枝 ， 前 者 再 分 歧 为 依赖 于 酸 的 嗜 高 温 的 
一 枝 与 包括 产 甲 烷 蓝 与 嗜 盐 菌 的 一 枝 。 这 一 结果 也 为 Gouyl 与 W.-H. Li (1989) MA 
的 方法 在 大 分 子 rRNA 上 得 到 。 

三 、 各 物种 同 源 大 分 子 癌 位 合影 响 的 估算 本 工作 可 以 估算 阿 源 大 分 子 间 的 偶合 
程度 , 因为 CO'isip 即 DO'iaip 与 DCIiais ZH, DCisi, T KARR, 也 可 用 联合 参 证 时 所 
得 的 diiais 来 代替 。 在 一 个 由 多 个 DO 值 所 构成 的 理论 等 值 数 值 群 中 ， 数 值 个 数 越 多 ， 
其 中 的 最 大 值 就 越 可 能 近似 于 DO' 值 。 在 实际 应 用 上 ， 可 用 作 联 合 参 证 所 得 的 矩阵 由 中 
各 理论 等 值 数 值 群 中 的 最 大 值 作为 DO' 的 近似 值 ， 而 以 其 与 各 中 值 之 差 作为 各 CO' 的 近 
似 值 。 例 如 从 天 5 中 可 以 看 出 ， 机 第 虫 与 酵母 5.8S rRNA 间 的 偶合 程度 即 显然 大 于 贾 
第 虫 与 纤毛 虫 之 间 的 ， 而 后 者 又 远大 于 要 第 虫 与 微 胞 子 虫 之 闻 的 。 

理论 等 值 数值 群 中 的 个 数 越 少 ， 其 最 大 值 就 越 可 能 距 DOD' 值 较 远 。 但 即使 具有 两 个 
数值 ， 在 进化 树 的 构建 上 也 远 比 只 有 单一 数值 为 优 。 图 7 中 的 错误 与 d'TeCri 是 一 不 成 
群 的 单一 数值 直接 相关 。 如 果 它 是 两 个 或 三 个 理论 等 值 的 数值 中 的 一 个 ， 从 中 取得 最 天 
值 来 成 聚 ， 图 7 可 能 就 不 会 得 到 。 

致谢 。 本文 曾 蒙 美国 Texas 大 学 种 群 统计 与 群体 得 符 研究 中 心 Wen-Hiung Li 教授 提出 宝贵 意 

见 。 








参考 文献 


闻 靖 上 类，1988a 。 分 学 进化 研究 中 的 今 祖 闭 ， 其 理论 基础 、 存 在 问题 和 解释 .动物 学 研究 ，9(2 1 :141 一 150。 

李靖 炎 。1988b .一 种 考 嵌 到 不 同 物种 同 源 大 分 子 间 的 侦 音 关系 的 新 的 今 祖 法 。 劲 物 学 研究 ，3(4):327 一 334。 

Blanken, R. La, LC. Klotz, A.G» Hinnebusch. 1982. Computer comparison of new and existing criteria 
for constructing evolutionary trees from sequence datas J. Mol. Evol., 19: 9-19. 

Gouyi, M. and W.-H. Li. 1989. Phylogenetic analysis based on rRNA sequences supports the archaebac- 
cterial rather than ihe cocyte trees Nature, 339 (6220):145-147. 

Klotz, Le C. and R. La Blankens 1981. A Practical method for calculating evolutionary trees from 
sequence datas J. Theor. Biol., 91:261-272. 

Lenaers, Gs, La Maroteaux, Bs Michot, et al. 1989. Dinoflagellates in evolutions A molecular phy- 
logenetic analysis of large subunit rRNA. J. Mol. Evol., 29 240-51. 

Li, W.-H. 1981. A simple method for constructing phylogenetic trees from distance matrices. Proc. Natl. 
Acad. Sci, USA, T8: 1085-1089. 

Maroteaux, Li, Me Herzog and M.-O. Soyer-Gobiflard. 1985. Molecular organization of dinoflageflate 
rRNA: evolutionary implications of the deduced 5.8S rRNA secondary structures. BioSystems, 18:307 
-819。 

Nei, M. 1975. Molecular population genetics and evolutions North-Holland, Amsterdam. 

Perasso, Re, As Baroin, Js H. Qu ef af. 1989. Origin of algae. N ature, 339: 142-144. 


394 动 Wy 2 To 33 





Sogin, M.L. ef al. 1989. Phylogenetic meaning of the kingdom concept: an unusual rRNA from! Giardia 
lamblia. Science, 243 $ 76-77. 

Steele, Re F.a 1980. Ph. D. thesis, Yale University. 

Walker, W. 1985. BS and 5.85 rRNA sequences and protist phylogenetics. BioSystems, 18 1 269—278. 


THE PDARIC METHOD FOR CONSTRUCTING MOLECULAR 
EVOLUTIONARY TRESE FROM SEQUENCES DATA 


Li Jingyan 


(Kunming Institute of Zoology, Academia Sinica 650107) 


The sequence data used were the conservative part of 5.85 rRNAs of 
seven species of protists (yeast, ciliate, trypanosomatid, microspora, diplomonad 
and two species of dinoflagellates) and of one species of higher plant (rice). 
The corresponding part in 235 TRNAS of seven species of prokaryotes (eubact— 
erium, halophilic archaebacteria, methane—-producing archaebacteria and sulfur- 
dependent thermophilic archaebacteria) were separately or integrately used as 
references, 

The evolutionary tree constructed by UPGMA method (fig, 1) is obviously 
incorrett. This fact probably means that the evolutionary rates in different 
branches of the phylogenetic tree are quite different, 

The present-day ancestor (PDA) method can, in theory, transform the 
difference matrix (matrix d) of a phylogenetic tree with unequal evolutionary 
rates into the matrix d' representing a tree with the same topology, but with 
equal rates, Then, from the matrix d' the real topology will be easily obtained. 
However, beyond expectation, from the same matrix dl of 5.8S rRNAs (table 
2) five different topologies (fig. 2 —fig. 6 ) were obtained by this method 
when seven reference species were separately used, These results contradict the 
theory, When these trees were judged by the critcrion that the two species of 
dinoflagellates should construct a monophyletic group, only one among them 
(fig. 6 )might be correct, Even when all the seven reference species were used 
integrately, the tree obtained (fig, 5) was not correct, Therefore, even when 
lots of species are used as an integrated reference group, PDA method stil! 
can not guarantee to obtain the correct topology. 

Another contradiction about this method is as the following, In theory, 


since matrix d' represents a tree with constant rate, there must exist a series 
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of groups of d' values which are equal to each other within each group. 
Nevertheless, these theoretically widely existing equal-valued elements can not 
be found in any matrix d'。 

Both contradictions were explained by the author (1988a) to be produced 
by various degrees of coincidences among pairs of homologous macromolecules, 
The originally equal ditference values will become unequal when these values 
are unequally reduced because of coincidences, Thercfore, the largest d' value 
of a group can be seemed as the value reduced at the least extent in the whole 
group, 

In present work the author found that these largest d' values from respec- 
tive groups could be used to represent these groups to verify the correctness 
of the topology obtained, With these largest values the author proved that 
all the topologies in fig, 2 to fige 5 are wrong and only the one in fig。6 is 
correct, 

The successful results described above enlightened us that we'd better to make 
the clustering with the largest d' values, rather than with the mean values as 
in original PDA method, The new method was called PDARIC method which 
means the present-day ancestor method with reduction of the influences of 
coincidences, 

When the same seven reference species were separately used, from the 
same matrix d only two topologies were obtained by the new method, Five 
separate reference species made the topology in fig. 6 and the other two made 
that in fig. 7. Although the two species of dinoflagellates ‘also construct a 
monophyletic group in fig. 7 the topology seems to be incorrect, because ciliate 
and trypanosomatid also construct a similar group in this tree, When arbitrary 
five from the seven reference species were used integrately, among all 21 
possible reference combinations, 20 got topology in fig,6 and only one got that 
in tig. 7. If arbitrary six or all seven reference species are used as integrated 
reference groups, only the topology in fig. 6 can be obtained, 

The previous work of the author (1988b) deduced a formula DO', 

DO" ig’y = Aigi, + COligi, ~ CO'igj ~ CO'R,j. 
DO'i,?, means the difference value between the two homologous macromolecules 
of studied species (į) which has removed the influence of the coincidence 
between the two macromolecules of studied species (CO'igi,) and those (CO'ij) 
between the molecules of studied species and reference species Çj}. From 
matrix DO' the real topology should be obtained, However, the author did 
not iind the way to estimate COli,i, value at that time, Therefore, under a 


very questionable assumption that all the influences of coincidences among pairs 
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of i are alike, the formula was simplified into formula DC'; 
DC'igi, = d'igi, ~ CO'igj ~ CO'i,j. 

In present work, the formula DC’ is found to be the base of the original PDA 
method with multiple reference group. For example, the matrix 中 obtained with 
seven reference species used integrately (table 3) is totally the same as the 
matrix DC' (table 5). Besides, the formula DO' is found to be the base of 
PDARIC method in theory. 

Key words, Constructing molecular evolutionary tree,Present-day ancestor 
(PDA) method, Coincidences between homologous macromolecules, Unicellular 
eukaryotes, 5.85 rRNA 


